## [1] "C/C/C/C/C/en_US.UTF-8"
## Registered S3 methods overwritten by 'ggplot2':
## method from
## [.quosures rlang
## c.quosures rlang
## print.quosures rlang
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
##
## Attaching package: 'GGally'
## The following object is masked from 'package:dplyr':
##
## nasa
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
这份报告探索了一个包含1599条红酒质量和其属性的数据集。本次项目目标是了解那些化学成分影响红葡萄酒的品质。
有1599个酒的样本,13个特征:其中X为红葡萄酒编号,11个红葡萄酒理化特征(固定酸、挥发性酸、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、pH值,硫酸盐和酒精),另外1个为红酒质量。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
红酒固定酸的含量集中在7-8g / dm^3之间,成正偏态分布
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
红酒挥发酸的含量集中在0.52g / dm^3,呈现右偏态分布.
#3.探索样本变量中的柠檬酸分布情况
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
红酒中柠檬酸的含量集中在0.26g / dm^3,整体呈现出比较分散的状态
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
红酒中残糖的含量集中在2.20g / dm^3,呈现出正偏态分布
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
红酒中氯化物的含量集中在0.079g / dm^3,大致呈现出正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
红酒中酒中带硫元素的离子的含量集中在14mg / dm^3,大致呈现出正偏态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
红酒中密度集中在14g / dm^3,大致呈现出正偏态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
红酒中pH值集中在3.31,大致呈现出正偏态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
红酒的的硫酸盐含量集中在0.62g / dm^3,大正呈现出正偏态分布
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
红酒中酒精的含量集中在10.2% by volume,大致呈现出正偏态分布
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
红酒质量的评分,75%的评分小于6分,最低值为3分,最高值为8分,平均值为5.636分,分数集中在5-6分之间
#由图可知,柠檬酸和红酒的质量呈现正相关,柠檬酸的含量越高,红酒的质量越高。
#由图可知,密度与红酒的质量大致呈现负相关,质量越高,密度越小,但密度对红酒质量的影响较小。
#由上图可知,酒精浓度与红酒质量呈正相关,特别是5-8分质量的红酒中,质量越高的酒,酒精含量越高。
#硫酸盐与红酒的质量成正相关,质量越高的红酒,硫酸盐越高。
#由图可知,发现固定酸于红酒质量不具有明显关系。
#由图可知,发现残留糖分对红酒的质量影响不大。
#由图可知,发现在柠檬酸一定下,降低酒精浓度,有助于提升质量。
#无法得出有意义结论
#在酒精浓度一定时,提高硫酸盐的浓度有助于提高红酒质量。
#由图可知,酒精浓度一定的时候,降低密度有助于提升红酒品质。
#无法得出有效结论
#由图可知,不能得出有效结论
#由图可知,发现在柠檬酸小于0.75时,降低密度有助于提高红酒质量.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
###Description Plot One #酒精含量呈正偏态分布。
#柠檬酸与葡萄酒质量呈正相关
#本项目,主要探索葡萄酒里的化学成分对葡萄酒质量的影响。单变量分析时,对各变量都进行了探索,ph,密度,固定酸度,挥发性酸度,硫酸盐,酒精。后来双变量分析时越来越清晰,了解到柠檬酸与葡萄酒质量正相关系关,最后多变量分析时,了解到酒精浓度一定的时候,降低密度有助于提升红酒品质。
#挫折或成功:开始分析会没有方向没尝试了很多变量关系,对于这些变量的对于红酒的作用也不是很了解,所以存在盲目猜测的状态。但是再后来收集资料的过程中总结出,不同变量的作用,对探索红酒质量的项目分析有了更多的了解。
#fixed.acidity:该变量指的是葡萄酒中的固定或者非挥发性酸度
#volatile.acidity:挥发酸,葡萄酒中的醋酸含量过高,会导致醋的味道不愉快。
#citric.acid:柠檬酸,柠檬酸含量小,能给葡萄酒增添新鲜感和风味。
#residual.sugar:剩余糖分,发酵结束后剩下的糖分,很少发现低于1克/升的葡萄酒,超过45克/升的葡萄酒被认为是甜的。
#chlorides:酒中的盐量。
#free.sulfur.dioxide:酒中带硫元素的离子,它可以防止微生物的生长和葡萄酒的氧化。
#total.sulfur.dioxide:二氧化硫,低浓度时检测不到,当浓度超过50 ppm时用鼻子可以闻到。
#density:密度,大致接近于水,具体取决于酒精和糖的含量。
#pH:用于描述酒的酸碱度。
#sulphates:硫酸盐,葡萄酒的添加剂,用于控制二氧化硫比例。
#alcohol:酒中的酒精浓度。
#quality:酒的质量,从0到10分不等。
#建议:在探究红酒质量过程中,应该更多的加入对不同指标的理解,特别是不同指标在红酒中的具体功能与作用。这样分析会更加有方向性。另外需要注意的是,这个质量的评分是有主观性的,因此结论不完全代表影响葡萄酒质量的真实原因。加入设计评分不同指标标准,会更好。当然,横向比较也可以尝试,例如影响白酒、白葡萄酒等类型酒酒品质量的因素,也有助于对本次红酒质量的分析。
save(df,file=‘~/Desktop/R-analysis.R’)